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La presente invention se rapporte a un precede de 
classification thematique de documents, destine en 
particulier, a la constitution ou la mise a jour de bases 
de donnees thematiques, en particulier pour moteur de 
recherche . 

Elle se rapporte egalement a un module de 
classification thematique de documents et a un moteur de 
recherche equipe d'un tel module de classification 
thematique . 

On connait, a ce jour, principalement deux outils 
informatiques permettant de rechercher des documents sur 
un reseau informatique, comme par exemple, le reseau 
Internet. 

Ces outils sont le moteur de recherche et le guide. 

Un moteur de recherche est un outil permettant 
d'extraire d'une information, principalement textuelle, 
les mots ou termes qui la represented le mieux et de les 
stocker dans des bases de donnees, egalement connues sous 
1 ' appellation "base d ' index" . 

De telles bases d' index sont generalement mises a 
jour relativement frequemment. 

En reponse a une requete formulee par un 
utilisateur, ce meme outil parcourt les bases d' index 
afin d' identifier les termes les plus pertinents par 
rapport a ceux de la requete, puis de trier les 
informations & fournir en retour. 

L» autre technique de recherche de documents sur un 
reseau informatique consiste a utiliser un guide. Cet 
outil propose des recherches par categories, les pages de 
documents etant classees manuellement par des 
documentalistes . 

Ces types d' outil presentent un certain nombre 
d * inconvenients . 

Tout d'abord, les moteurs de recherche ne proposent 
pas de classement de pages de document par categories. En 
effet, les pages fournies en reponse a une requete ne 
sont pas typees. Ainsi, des requetes ambigues peuvent 
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donner lieu & des r6ponses tr6s diverses, ressenties 
comme du bruit par 1 'utilisateur . 

Les guides, au contraire, permettent de fournir & un 
utilisateur des rSponses typfees, c f est S dire portant sur 
5 le ou les memes themes que la requete. 

Cependant, le classement manuel des pages de 

document implique de forts coQts de creation et de mise & 

jour et ne permet l f indexation que d'un nombre limit6 de 
pages. Par consequent, certaines requetes n'obtiennent 
10 pas de rfeponse. 

Le but de 1 ' invention est de palier les 
inconvenients des moteurs de recherche et des guides. 

Elle a done pour objet un procede de classification 
thematique de documents, notamment, pour la constitution 
15 ou la mise h jour de bases de donnees thfematiques pour 
moteur de recherche, caracteris6 en ce qu'il comporte les 
etapes suivantes : 

- on selectionne un 6chantillon de documents 
represent at if s de chaque th&me ; 
20 - on identifie, dans les documents select lonn&s, des 

elements caractferistiques de chaque thfeme ; 

on affecte, & chaque 616ment identifi6, un 
coefficient repr^sentatif de la pertinence de cet 616ment 
vis & vis du th&ne correspond ant ; et 
25 - pour chaque document a classifier, on identifie 

lesdits elements caracteristiques de chaque thdme qu'il 
contient et, pour chaque theme qui leur correspond, on 
calcule, a partir du coefficient affecte & ces 616ments, 
la valeur d f une caracteristique representative de la 
30 pertinence du th&ne pour ce document, pour decider si ce 
document porte ou non sur ce th6me. 

On classe ainsi les documents recuperes sur un 
reseau informatique en fonction des themes qui y sont 
abordes et ce, de fagon automat ique. 
35 Le procede de classification selon l f invention peut 

en outre comporter une ou plusieurs des caracteristiques 
suivantes, prises isolement ou selon toutes les 
combinaisons techniquement possibles : 




- l'etape d f affectation dudit coefficient A cheque 
Element identifie comprend les etapes suivantes, pour 
chaque theme : 

. calcul de la frequence de l f element dans les 
documents selectionn6s portant sur ce theme , 

. calcul de la frequence de l f element dans les 
documents s61ectionn6s ne portant pas sur ce theme, et 

calcul du rapport entre les frequences 

calculees . 

- il comporte en outre une etape de tri des themes 
selon une arborescence de themes et par ordre decroissant 
des coefficients, 

l f etape de calcul de la caracteristique 
representative de la pertinence du theme d f un document a 
classifier comprend les etapes suivantes pour chaque 
theme : 

on lit la valeur du rapport desdites 
frequences de chaque Element representatif du theme 
extrait du document, 

. on multiplie les valeurs lues et 
• on af fecte le r6sultat de cette multiplication 
a la valeur de ladite caracteristique, 

- l f on decide que le document porte sur un theme si 
la valeur de ladite caracteristique representative de la 
pertinence du theme pour ce document est sup6rieure & une 
valeur de seuil, 

- la valeur de seuil est elaboree, pour chaque 
theme, a partir desdits rapports de frequence, selon la 
relation suivante : 

score . seuil tMme = (R moy )ntheme 
dans laquelle : 

score _ seuil th6me designe la valeur de seuil 

^moy repr^sente la valeur moyenne des rapports de 

frequences R des elements du theme et, 
nthdme designe un nombre predetermine. 

- selon une variante, la valeur de seuil est regl6e 
manuellement . 
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les etapes d 1 identification des 616ments 
caracteristiques de chaque th£me contenu dans un document 
sont r6alis£es au moyen d T une table de hachage* 

- on calcule, pour chaque 616ment de vocabulaire 
5 d'une requete formulae par un utilisateur, des 
coefficients caracteristiques de I'fel&nent par rapport A 
chaque theme connu et 1 f on associe & chaque 616ment les 
coefficients et les themes correspondants , de sorte que 
lesdits coefficients atteignent une valeur minimale. 
10 Lors de la recherche des entrees d f index, c'est h 

dire au cours de la recherche des documents 
correspondants a la requete, il est ainsi possible 
d f acc6der directement aux themes li6s & chaque 616ment et 
aux coefficients correspondants que l T on combine par 
15 multiplication afin de determiner un classement des 
themes lies h la requete entiere. 

L' invention a fegalement pour objet un module de 
classification thematique de documents, hotamment pour 
moteur de recherche, caracterise en ce qu'il comporte des 
20 moyens de comparaison d' elements extraits de chaque 
document avec des Elements caracteristiques de diff6rents 
themes affectes chacun d'un coefficient reprfesentatif de 
la pertinence de cet Element pour un th£me correspondant 
et des moyens de calcul de la valeur d'au moins une 
25 caracteristique representative de la pertinence d f un 
theme pour ce document, a partir des coefficients desdits 
elements caracteristiques qu'il contient pour decider si 
ce document porte ou non sur ce th&me. 

Un autre objet de 1 ' invention est un moteur de 
30 recherche de documents sur un rfeseau inf ormatique, 
comprenant un module d' indexation pour la creation et la 
mise & jour de bases de donn6es thematiques, S partir de 
documents recuperfes sur le reseau inf ormatique, et un 
module d 1 interrogation des bases de donn£es adapt&es pour 
35 fournir des references de documents correspondant & une 
requete regue en entree, caract6rise en ce qu f il comporte 
en outre un module de classification th&natique tel que 
d6finit ci-dessus, associe au module d ? indexation* 



D 1 autres caracteristiques et avantages ressortiront 
de la description suivante, donnee uniquement a titre 
d' exemple, et faite en reference aux dessins annexes sur 
lesquels : 

5 - la Fig. 1 est un organigranune montrant les 

principales phases de f onctionnement d'un module de 
classification thematique de documents selon l f invention,, 
pour moteur de recherche ; 

la Fig. 2 est un organigranune illustrant la 

10 methode de calcul des Elements caractferistiques de themes 
; et 

- la Fig. 3 est un organigranune montrant la methode 
de calcul des themes d'un document. 

Sur la Fig. 1, on a reprfesente les principales 
15 phases du procede de classification thematique de 
documents selon I 1 invention. 

II est destine* & permettre le classement de 
documents recuperes sur un reseau informatique, en 
fonction de themes qui y sont abordes. Par exemple, il 
20 peut etre mis en oeuvre au sein d'un moteur de recherche. 

Dans ce cas, il intervient des le processus 
d' indexation, mais egalement au cours du traitement d f une 
requete formulee par un utilisateur, pour permettre de 
determiner tous les themes abordes dans cette requSte. 
25 On congoit toutefois que d f autres applications 

peuvent etre envisages. Par exemple, ce proc£d6 peut 
etre mis en oeuvre au niveau d'un point d f acces d'un 
reseau de postes utilisateurs & un reseau Internet, afin 
de determiner la nature des pages Web recuperees par les 
30 utilisateurs et interdire ou autoriser, par filtrage des 
requetes, certains themes, par exemple, contraires & 
l'ordre public et aux bonnes moeurs, ou encore calculer 
des statistiques sur les centres d'interet des 
utilisateurs. 

35 Pour proceder a cette classification, le procede 

comporte deux phases distinctes, a savoir une premiere 
phase pr6alable d' acquisition du vocabulaire thematique 
de corpus de documents et d 'affectation, a chaque mot du 



vocabulaire. d'une valeur de seuil a partir de laquelle 
on decide qu'un document, contenant oe mot, porta sur la 
theme correspondent, ainsi qu'une deuxieme phase de 
classification proprement arte, au ooura de 
document r^upere sur la reseau est -~"«»— £ 
classifie an fonction aas elements caracteristiques qu 11 

"'^r' exemple oarta deuxieme pUa,a Intcrvi o nt 
periodiquement, sauls aas documents nouvellement crees ou 
) modifies fetant classifies. 

L a description aa la premiere phasa d • acquisition du 
vooabularta thematique va maintenant etre an reference 

aux Figs. 1 a 3. , AKnfo 
Comme on la vort sur la Fig. 1. certa phasa debute 
5 par una etepe 10 de selection manuelle, a pertir d un 
ensemble 12 d'echantillons (ou corpus) da documents 
"prfsentatifs da cnacun aas themes A a Z utilises pour 
classar las documents au cours de la deuxieme phase. 

Alnsl. a I'lssu da cette etepe 10 de selection 
20 menuelle. on dispose d-un ensemble de corpus : *» 
documents, tels que 14, pcrtant cnacun sur u„ thfcme 
(theme A, . . . theme Z ) . Blen entendu 1 -steps de selection 
peut egalement etre effectuee par tout moyen autre qua 

25 cours da cette etape 10 de selection, on ores 

egalement un corpus 16 de documents na pcrtant sur aucun 
des themes A a Z et on definit une nomenclature ISdes 
themes A a z. c'est a dire la llste de ces themes 
associes a des sous-themes s'y rapportant. 

Lore de 1' etape 20 solvents, oee laments sent 
, „„ entree d'un module de classification 

P t h nrue Z r e d.ertralre de cheque document les 
elements caracteristiques de cheque theme et de les 
effector checun d'un coefficient represented de leur 
35 pertinence vis a vis d'un theme correspondent . 

Par example ca module de classification thematique 
se presents sous la forma d'un module specifique d un 
"teur de recherche, associe a un module d' indexation 




realisant la creation ou la mise a jour des bases de 
donnees thematiques. 

II peu-t egalement §tre agence sous la forme d'un 
module specif ique prevu au niveau d'un point d'acces a un 
5 reseau inf ormatique , en particulier a un reseau Internet. 

Ce module comprend les moyens logiciels appropries 
pour realiser 1 ' extraction des elements caracteristiques 
de chaque theme et pour les at teeter d'un coefficient 
representatif de leur pertinence vis a vis de differents 
10 themes, comme cela va etre deer it en detail par la suite. 

Au cours de cette etape 20, le module de 
classification extrait, de chaque document selectionne, 
les elements caracteristiques de chaque theme. 

Cette extraction s'effectue en utilisant un outil 
15 inf ormatique de type classique. II ne sera done pas 
decrit par la suite. 

On dispose a l'issu de cette etape 20, de listes 
d' elements caracteristiques des themes A a Z, telles que 
22. 

20 En reference a la Fig. 2, cette procedure 

d ' identification du vocabulaire caracteristique de chaque 
theme s'effectue successivement pour chaque element 
extrait des documents de chacun des corpus 14 et 16. 

Au cours d'une premiere etape 24, on vide un tableau 

25 regroupant 1' ensemble des themes candidats, e'est" a dire 
les themes susceptibles de correspondre a 1' element 
extrait . 

Lors de 1' etape 26 suivante, on procede, pour chaque 
theme, a un calcul d'un coefficient R representatif de la 
30 pertinence de cet element vis a vis de ce theme. 

Pour proceder a ce calcul, on calcule tout d'abord 
la frequence p de 1' element dans les documents portant 
sur ce theme, ainsi que la frequence q de cet element 
dans les documents ne portant pas sur ce theme. 
35 on procede ensuite au calcul du coefficient R, 

constitue par le rapport entre ces frequences p et q. 



Lors de I'fetape 28 suivante, on v6rifie si les 
caractferistiques p, q et R se situent & l'int^rieur de 
limites pr£d6termin6es . 

Si -tel n'est pas le cas, on procede au traitement de 
5 l 1 Element suivant. 

Si tel est le cas, on ajoute le theme dans le 
tableau des themes candidats avec un score 6gal au 
coefficient R (fetape 30). 

S f il reste des Elements & traiter (6tape 32), la 
10 procedure retourne a l f 6tape 24 pr6c6dente. 

Dans le cas contraire, cette procedure s'achdve. 
On notera que, de preference, apres remplissage du 
tableau des themes candidats, celui-ci est tri6 par ordre 
dfecroissant des scores R. On notera fegalement que pour 
15 tout theme candidat, jusqu'St un nombre maximum voulu, on 
ajoute un nouvel element r6cup6r6 dans la liste des 
Elements caract6ristiques de ce theme, en se limitant a 
un nombre maximum voulu des n meilleurs 616ments par 
th6me choisi en fonction de leur score R. 
20 En se rfef^rant & nouveau & la Fig. 1, lors de 

l'fetape 34 suivante, le module de classification 
thematique procede a un calcul automat ique, au moyen d'un 
algorithme approprie, d f une valeur de seuil correspondant 
& un seuil minimum & atteindre pour determiner, si un 
25 document comprenant un element caract6ristique d'un theme 
porte ou non sur ce theme • 

Pour proceder a ce calcul, le module de 
classification procede tout d'abord & un calcul de la 
valeur moyenne R^y des rapports R des elements 
30 caractferistiques de chaque th&me (fetape 36). 

II procede ensuite au calcul de la valeur de seuil 
score _ seuil thtofif selon la relation suivante : 

score . seuil^e = (Rmoy)nth6me 
dans laquelle nthSme dfesigne un nombre pr6d6terminfe 
35 choisi par exemple 6gal & 5 pour la plupart des themes. 

On voit alors sur la Fig. 1, qu f £ l'issu de ce 
calcul automat ique des scores S atteindre, on dispose de 
listes/ telles que 40, d f elements caractferistiques de 




chaque theme A a Z, affectfes chacun d'un score & 
atteindre, c'est a dire d'une valeur de seuil 4 partir de 
laquelle on considere qu'un document: porte sur ce th&ne. 

Apres cette phase d 1 acquisition du vocabulaire 
th^matique, r6alis6e a partir de corpus de documents 
representatifs de themes, la deuxieme phase de 
classification thematique proprement dite peut etre 
effectufee, dans le but de const it uer des bases de donnco c — 
thematiques, designees par la r6f6rence numferique 
generale 42, a partir de documents collect6s 
automatiquement sur le reseau informatique par des 
robots, tels que 44. 

Ces documents sont presentes en entree du module de 
classification thematique, qui regoit 6galement une 
indication de la nomenclature 18 des themes, ainsi que 
les 616ments disponibles a l'issu de l f 6tape 34 
mentionnee precedemmeht . Ce module procede & un calcul 
automat ique des themes sur lesquels porte le document 
(etape 46). 

Pour ce faire, il comporte tous les moyens logiciels 
appropries pour r^aliser les operations mentionnfees ci- 
dessous. 

En reference a la Fig. 3, au cours d f une premiere 
etape 48 de cette procedure, le module d f indexation 
extrait de chaque document 50 recuperfe par les robots 44, 
les Elements caracteristiques de themes qu f il contient. 

Cette etape s f effectue, par exemple, en utilisant 
une table de hachage, pour rechercher rapidement dans les 
listes d'el&ments caracteristiques les 616ments contenus 
dans chaque document. 

Apr6s extraction de ces elements on identifie, parmi 
ceux-ci, les Elements caracteristiques de themes contenus 
dans les listes 40. 

Pour chaque element identifi6, le module de 
classification procede ensuite & un calcul d'une valeur 
caract6ristique representative de la pertinence de chaque 
th&me pour ce document, a partir du coefficient affect^ a 
cet element. 
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Pour ce faire, lors de l'etape 52 suivante, une 
variable "score, theme" , representative du score du 
document dans un theme donne est positionnee a 1, et ce 
pour tous les themes. 
5 Ensuite, pour tout element du document, et pour 

chague theme de 1 ' arborescence des themes, si l 1 element 

se situe parmi la liste des elements caract6ristiques du 

theme, on lit le score R, c'est & dire la valeur du 
rapport des frequences pour chaque element et on 

10 multiplie les valeurs lues du score R pour chacun de ces 
elements . 

Le resultat de cette multiplication est ensuite 

affecte & la valeur de la caracteristique score 

theme ( et ape 54 ) . 
15 On decide alors que les themes reconnus dans le 

document 50 sont ceux dont la caracteristique score _ 

theme atteint ou d6passe le score h atteindre pour ces 

themes ( 6tape 56 ) . 

On dispose alors, a l f issu de cette procedure, de 
20 1' ensemble 57 des themes sur le ou lesquels porte le 

document 50 r6cupere . 

On congoit done que cette procedure de calcul 

automatique des themes des documents recuperes par les 

robots 44 permet au module d 1 indexation d 1 un moteur de 
25 recherche de classer ces documents en fonction des themes 

abordes et de constituer les bases 42 de donnees 

th6matiques . 

Une telle procedure de calcul automatique de theme 
de documents peut egalement etre utilisee pour determiner 
30 les themes abordes dans une requete formuiee par un 
utilisateur. 

Pour ce faire, a partir de cette requete, pour 
chacun des elements du vocabulaire d f interrogation 
utilises dans la requete, on calcule les coefficients 
35 caracteristiques de cet element par rapport a chacun des 
themes connus et l'on associe a chacun de ces elements 
les coefficients et themes de telle maniere que les 
coefficients atteignent une valeur minimale. 



Lors de la recherche des entrees d f index 
correspondant aux Elements d 1 une reguete , c 1 est h dire 
pour le calcul des resultats, on accede ainsi directement 
au theme lie aux elements ainsi qu f & leur coefficient , 
5 que l'on combine par multiplication selon la meme 
procedure que celle decrite plus haut, afin de determiner 
un classement des themes lies a la requete entiere. 

On congoit done que cette procedure permet de 
proposer & un utilisateur de preciser sa requete, par 
10 exemple, lorsque celle-ci est formulae de fagon vague. 

On congoit egalement que cette procedure, qui permet 
d 1 identifier les themes contenus dans une requete, rend 
possible d'effectuer une surveillance des requetes 
utilisateurs afin d f etablir des calculs statistiques 
15 permettant de definir des profils d 1 utilisateurs en 
fonction des requ&tes. 

On saisira alors que 1 ' invention qui vient d'etre 
decrite peut etre utilis^e pour la recherche de themes 
contenus dans des pages recuperees sur un r&seau 
20 informatique, pour la determination de themes contenus 
dans une requete formulae par un utilisateur et, a partir 
de cette determination, pour le filtrage des requetes et 
egalement des pages recuperees, afin d'interdire la 
formulation de requete ou la recuperation de pages 
25 portant sur des themes predetermines interdits, et pour 
1 ' elaboration des profils d 'utilisateurs. 

On not era cependant que dans le cas de la 
determination des themes contenus dans une requete, cette 
derni£re est consideree comme constituant un document 
30 presents en entree du module de classification thematique 
selon l f invention. 

L 1 invention n'est pas limitee au mode de realisation 
envisagee. 

En effet, il est egalement possible, en variante, de 
35 regler manuellement la valeur de seuil a partir de 
laquelle on decide qu'un document porte ou non sur un 
theme donne. 
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RE VEND I CAT I ONS 
1. Proc6de de classification thfematique de 
documents, notamment pour la constitution ou la mlse k 
jour de bases de donnees thematiques pour moteur de 
5 recherche, caract£ris£ en ce qu'il comporte les 6tapes 
suivantes : 

on sfelectionne un 6chantillon de documents 
represent at if s de chaque theme ; 

- on identifie, dans les documents s61ectionn6s, des 
10 Elements caract6ristiques de chaque th&ne ; 

on affecte, a chaque Element identifie, un 
coefficient (R) representatif de la pertinence de cet 
element vis a vis du theme correspondant ; et 

- pour chaque document (50) a classifier, on 
15 identifie lesdits Elements caracteristiques de chaque 

thfeme qu f il contient et, pour chaque th^me qui leur 
correspond, on calcule, & partir du coefficient affect6 S 
ces elements, la valeur d'une caracteristique 
representative de la pertinence du thdme pour ce document 
20 (50), pour decider si ce document porte ou non sur ce 
theme • 

2. Procede selon la revendication 1, caractferise en 
ce que l'etape d ' affectation dudit coefficient d chaque 
element identifie comprend les 6tapes suivantes, pour 

25 chaque th6me : 

- calcul de la frequence de 1' Element dans les 
documents select ionnes portant sur ce theme, 

- calcul de la frequence de 1* element dans les 
documents select ionne ne portant pas sur ce thfeme, et 

30 - calcul du rapport entre les frequences calcul6es. 

3. Proced6 selon la revendication 2, caract6ris6 en 
ce qu'il comporte en outre une 6tape de tri des thdmes 
selon une arborescence de th&mes et par ordre d6croissant 
des coefficients. 

35 4. Procfede selon l'une des revendications 2 et 4, 

caract6rise en ce que l ? 6tape de calcul de la 
caracteristique representative de la pertinence du theme 



13 



Feullte avsfit rilCtfflcetjon 

^^ avant rectif ication ^ 

d f un document: & classifier comprend les etapes suivantes, 
pour chaque theme : 

on lit la valeur du rapport (R) desdites 
frequences de chaque element represent a tif du theme 
extrait du document, 

- on multiplie les valeurs lues, et 

- on affecte le resultat de cette multiplication & 



la valeur de ladite caracteristique. ' 

5. Procede selon l f une quelconque des revendications 
10 1 & 4, caracterise en ce que l f on decide que le document 

jporte sur un theme si la valeur de ladite caracteristique 
representative de la pertinence du theme pour ce document 
est superieure a une valeur de seuil. 

6. Procede selon la revendication 5, caract6ris6 en 
15 ce que la valeur de seuil est eiaboree, pour chaque 

theme, a partir desdits rapports de frequence, selon la 
relation suivante : 

score _ seuil thfeme = (R moy )ntheme 
dans laquelle : 
20 score . seuil th6roe designe la valeur de seuil 

R^y represente la valeur moyenne des rapports de 

frequences R des elements du theme et, 
ntheme designe un nombre predetermine. 

7. Procedfe selon la revendication 5, caracterise en 
25 ce que la valeur de seuil est r£glee manuellement • 

8 • Procede selon 1 1 une quelconque des revendications 
1^7, caracterise en ce que les etapes d 1 identification 
des elements caracteristiques de chaque theme contenu 
dans un document (50) sont realisees au moyen d'une table 

30 de hachage. 

9 . Procede selon 1 ' une quelconque des revendications 
1 a 8, caracterise en ce que l'on calcule, pour chaque 
element de vocabulaire d'une requete formuiee par 
1 ? utilisateur, des coefficients caracteristiques de 

35 1 f element par rapport & chaque theme connu et l'on 
associe a chaque element les coefficients et les themes 
correspondant, de sorte que lesdits coefficients 
atteignent une valeur minimale. 
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10. Module de classification thematique de documents 
(50), notamment pour moteur de recherche, caracterise en 
ce qu'il comporte des moyens de comparaison d' elements 
extraits de chaque document avec des elements 
caracteristiques de differents themes, affectes chacun 
d'un coefficient (R) representatif de la pertinence de 
cet element pour un theme correspondant , et des moyens de 
calcul de la valeur d^au moins une caracterisxique 
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representative de la pertinence d'un theme pour ce 
document, a partir des coefficients desdits elements 
caracteristiques qu'il contient, pour decider si ce 
document (50) porte ou non sur ce theme. 

11. Utilisation d'un module de classification 
thematique de documents selon la revendication 10 pour la 
recherche de themes contenus dans des pages recuperees 
sur un reseau informatique. 

12. Utilisation d'un module de classification 
thematique de documents selon la revendication 10 pour la 
determination de themes contenus dans une requete 

20 formulee par un utilisateur. 

13. Utilisation d'un module de classification 
thematique de documents selon la revendication 10 pour la 
determination de themes contenus dans des pages 
recuperees sur un reseau informatique ou dans une requete 
formulee par un utilisateur et le filtrage des documents 
recuperes pour interdire la consultation de pages portant 
sur un ou des themes predetermines. 

14. Utilisation d'un module de classification thema- 
tique de documents selon la revendication 10 pour la de- 
termination de themes contenus dans une requete formulee 
par un utilisateur et 1 ' elaboration de profils d'utilisa- 
teurs a partir des themes sur lesquels porte la requete. 

15. Moteur de recherche de documents sur un reseau 
informatique, comprenant un module d' indexation pour la 
creation et la mise a jour de bases de donnees 
thematiques, a partir de documents recuperes sur le 
reseau informatique, et un module d ' interrogation des 
bases de donnees thematiques adaptees pour fournir des 
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references de documents correspondant a une requite regue 
en entree, caracterisfe en ce qu'il comporte en outre un 
module de classification thematique selon la 
revendication 10 , associ6 au module d f indexation. 
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REVEND I CATIONS 

1. Procede de classification thematique de 
documents, notamment pour la constitution ou la mise a 
jour de bases de donnees thematiques pour moteur de 

5 recherche, caracterise en ce qu'il comporte les etapes 
suivantes : 

on selectionne un echantillon de documents 

representatif s de chaque theme ; 

- on identifie, dans les documents selectionnes, des 
10 elements caracteristiques de chaque theme ; 

on affecte, a chaque element identifie, un 
coefficient (R) representatif de la pertinence de cet 
element vis a vis du theme correspondant ; 

pour chaque document (50) a classifier, on 

15 identifie lesdits elements caracteristiques de chaque 
theme qu'il contient et, pour chaque theme qui leur 
correspond, on calcule, a partir du coefficient affecte a 
ces elements, la valeur d'une caracteristique 
representative de la pertinence du theme pour ce document 

20 (50), pour decider si ce document porte ou non sur ce 
theme, lesdites etapes d' identification et de calcul 
etant realisees automat iquement pour chaque document 
recupere sur un reseau informatique ; 

- on classe les documents recuperes en fonction des 
25 themes qui y sont abordes ; et 

- 1'on stocke les documents classes par themes dans 
des bases de donnees interrogeables a partir de themes 
contenus dans une requete 

2. Procede selon la revendication 1, caracterise en 
30 ce que l'etape d ' affectation dudit coefficient a chaque 

element identifie comprend les etapes suivantes, pour 
chaque theme : 

- calcul de la frequence de 1' element dans les 
documents selectionnes portant sur ce theme, 

35 - calcul de la frequence de l 1 element dans les 

documents selectionne ne portant pas sur ce theme, et 

- calcul du rapport entre les frequences calculees. 
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3. Procede selon la revendication 2, caracterise en 
ce qu'il comporte en outre une etape de tri des themes 
selon une arborescence de themes et par ordre decroissant 
des coefficients. 

5 4. Procede selon l'une des revendications 2 et 4, 

caracterise en ce que 1' etape de calcul de la 
caracteristique representative de la pertinence du theme 
d'un document a classifier comprend les etapes suivantes, 
pour chaque theme : 

10 - on lit la valeur du rapport (R) desdites 

frequences de chaque element representatif du theme 
extrait du document, 

- on multiplie les valeurs lues, et 

- on affecte le resultat de cette multiplication a 
15 la valeur de ladite caracteristique. 

5. Procede selon l'une quelconque des revendications 
1 a 4, caracterise en ce que l'on decide que le document 
porte sur un theme si la valeur de ladite caracteristique 
representative de la pertinence du theme pour ce document 

20 est superieure a une valeur de seuil. 

6. Procede selon la revendication 5, caracterise en 
ce que la valeur de seuil est elaboree, pour chaque 
theme, a partir desdits rapports de frequence, selon la 
relation suivante : 

25 score - seuil t h6me = (R m oy)ntheme 

dans laquelle : 

score - seuilthfcme designe la valeur de seuil 
R m oy represente la valeur moyenne des rapports de 
frequences R des elements du theme et, 
30 ntheme designe un nombre predetermine. 

7. Procede selon la revendication 5, caracterise en 
ce que la valeur de seuil est reglee manuellement . 

8. Procede selon l'une quelconque des revendications 
1 a 7, caracterise en ce que les etapes d ' identification 

35 des elements caracteristiques de chaque theme contenu 
dans un document (50) sont realisees au moyen d'une table 
de hachage. 
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9. Procede selon 1 ' une quelconque des revendications 
1 a 8, caracterise en ce que l'on calcule, pour chaque 
element de vocabulaire d'une requete formulee par 
1' utilisateur, des coefficients caracteristiques de 



associe a chaque element les coefficients et les themes 
correspondant, de sorte que lesdits coefficients 
atteignent une valeur minimale. 

10. Module de classification thematique de documents 
(50) , notamment pour moteur de recherche, caracterise en 
ce qu'il comporte une unite centrale de traitement 
comprenant des moyens de comparaison d' elements extraits 
de chaque document avec des elements caracteristiques de 
differents themes, affectes chacun d'un coefficient (R) 
representatif de la pertinence de cet element pour un 
theme correspondant, et des moyens de calcul de la valeur 
d'au moins une caracteristique representative de la 
pertinence d'un theme pour ce document, a partir des 
coefficients desdits elements caracteristiques qu'il 
contient, pour decider si ce document (50) porte ou non 
sur ce theme, ladite unite centrale etant raccordee a des 
moyens de stockage de documents classes par themes, 
interrogeables a partir de themes contenus dans une 
requete . 

11. Utilisation d'un module de classification 
thematique de documents selon la revendication 10 pour la 
determination de themes contenus dans une requete 
formulee par un utilisateur. 

12. Utilisation d'un module de classification 
thematique de documents selon la revendication 10 pour la 
determination de themes contenus dans des pages 
recuperees sur un reseau informatique ou dans une requete 
formulee par un utilisateur et le filtrage des documents 
recuperes pour interdire la consultation de pages portant 
sur un ou des themes predetermines. 

13. Utilisation d'un module de classification thema- 
tique de documents selon la revendication 10 pour la de- 
termination de themes contenus dans une requete formulee 



5 1' element par rapport a 



chaque theme connu et l'on 
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par un utilisateur et 1' elaboration de profils d' utilisa- 
teurs a partir des themes sur lesquels porte la requete. 



inf ormatique, comprenant un module d' indexation pour la 
5 creation et la mise a jour de bases de donnees 
thematiques, a partir de documents recuperes sur le 

reseau inf ormatique, et un module d ' interrogation des 

bases de donnees thematiques adaptees pour fournir des 
references de documents correspondant a une requete re<pue 

10 en entree, caracterise en ce qu'il comporte en outre un 
module de classification thematique selon la 
revendication 10, associe au module d 1 indexation . 
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3. Procede selon la revendication 2, caracteris6 en 
ce qu'il comporte en outre une etape de tri des themes 
selon une arborescence de themes et par ordre decroissant 
des coefficients. 
5 4, Procede selon la revendication 2 ou 3, 

caracterise en ce que 1' etape de calcul de la 

caracteristique representative de la pert-.inenr.ft Hn fhpmp 

d'un document a classifier comprend les etapes suivantes, 
pour chaque theme : 
10 - on lit la valeur du rapport (R) desdites 

frequences de chaque element representatif du theme 
extrait du document, 

- on multiplie les valeurs lues, et 

- on affecte le resultat de cette multiplication a 
15 la valeur de ladite caracteristique. 

5. Proc6de selon l'une quelconque des revendications 
1 a 4, caracterise en ce que 1 1 on decide que le document 
porte sur un theme si la valeur de ladite caracteristique 
representative de la pertinence du theme pour ce document 

20 est superieure a une valeur de seuil. 

6. Procede selon la revendication 5, caracterise en 
ce que la valeur de seuil est elaboree, pour chaque 
theme, a partir desdits rapports de frequence, selon la 
relation suivante : 

25 score - seuilthdme = (R moy )ntheme 

dans laquelle : 

score . seuilth^me designe la valeur de seuil 
Rmoy represente la valeur moyenne des rapports de 
frequences R des elements du theme et, 
30 ntheme designe un nombre predetermine. 

7. Procede selon la revendication 5, caracterise en 
ce que la valeur de seuil est reglee manuellement . 

8. Procede selon l'une quelconque des revendications 
1 & 7, caracterise en ce que les etapes d ' identification 

35 des elements caracteristiques de chaque theme contenu 
dans un document (50) sont realisees au moyen d'une table 
de hachage. 



